智能论文笔记

Estimating Personal Model Parameters from Utterances in Model-based Reminiscence

Shoki Sakai , Kazuki Itabashi , Junya Morita

分类：人工智能

2022-08-15

回忆疗法是基于记忆的回忆，是心理保健。但是，该方法的有效性在个体之间有所不同。为了解决这个问题，有必要提供更多个性化的支持；因此，本研究采用了基于思想理性（ACT-R）的认知体系结构自适应控制的个人记忆回忆的计算模型。反映用户状态的ACT-R内存模型有望促进个人回忆。在这项研究中，我们提出了一种通过与内存模型的重复相互作用来估算用户内部状态的方法。该模型包含用户的LIFELOG，向用户展示了一个内存项（刺激），并根据调整模型的内部参数的刺激接收用户对刺激的响应。通过重复这些过程，模型的参数将反映用户的内部状态。为了确认所提出方法的可行性，我们在使用合并该模型的系统时分析了用户的话语。结果证实了该方法从用户的话语中估算模型的内存检索参数的能力。此外，该方法估计使用系统引起的用户情绪变化的能力得到了证实。这些结果支持估计人类内部状态的交互式方法的可行性，这最终将有助于诱导记忆回忆和情绪为我们的幸福感。

translated by 谷歌翻译

Point Cloud-based Proactive Link Quality Prediction for Millimeter-wave Communications

Shoki Ohta , Takayuki Nishio , Riichi Kudo , Kahoko Takahashi , Hisashi Nagata

分类：人工智能 | 计算机视觉 | 机器学习

2023-01-02

This study demonstrates the feasibility of point cloud-based proactive link quality prediction for millimeter-wave (mmWave) communications. Image-based methods to quantitatively and deterministically predict future received signal strength using machine learning from time series of depth images to mitigate the human body line-of-sight (LOS) path blockage in mmWave communications have been proposed. However, image-based methods have been limited in applicable environments because camera images may contain private information. Thus, this study demonstrates the feasibility of using point clouds obtained from light detection and ranging (LiDAR) for the mmWave link quality prediction. Point clouds represent three-dimensional (3D) spaces as a set of points and are sparser and less likely to contain sensitive information than camera images. Additionally, point clouds provide 3D position and motion information, which is necessary for understanding the radio propagation environment involving pedestrians. This study designs the mmWave link quality prediction method and conducts two experimental evaluations using different types of point clouds obtained from LiDAR and depth cameras, as well as different numerical indicators of link quality, received signal strength and throughput. Based on these experiments, our proposed method can predict future large attenuation of mmWave link quality due to LOS blockage by human bodies, therefore our point cloud-based method can be an alternative to image-based methods.

translated by 谷歌翻译

Non-autoregressive Error Correction for CTC-based ASR with Phone-conditioned Masked LM

Hayato Futami , Hirofumi Inaguma , Sei Ueno , Masato Mimura , Shinsuke Sakai , Tatsuya Kawahara

分类：自然语言处理

2022-09-08

连接派时间分类（CTC）的模型在自动语音识别（ASR）方面具有吸引力，因为它们的非自动性性质。为了利用仅文本数据，语言模型（LM）集成方法（例如重新纠正和浅融合）已被广泛用于CTC。但是，由于需要降低推理速度，因此他们失去了CTC的非自动性性本质。在这项研究中，我们提出了一种使用电话条件的蒙版LM（PC-MLM）的误差校正方法。在提出的方法中，掩盖了来自CTC的贪婪解码输出中的较不自信的单词令牌。然后，PC-MLM预测这些蒙版的单词令牌给定的单词和手机补充了CTC。我们进一步将其扩展到可删除的PC-MLM，以解决插入错误。由于CTC和PC-MLM均为非自动回旋模型，因此该方法可以快速LM集成。在域适应设置中对自发日本（CSJ）和TED-LIUM2语料库进行的实验评估表明，我们所提出的方法在推理速度方面优于重新逆转和浅融合，并且在CSJ上的识别准确性方面。

translated by 谷歌翻译

Distilling the Knowledge of BERT for CTC-based ASR

Hayato Futami , Hirofumi Inaguma , Masato Mimura , Shinsuke Sakai , Tatsuya Kawahara

分类：自然语言处理

2022-09-05

Connectionist时间分类（CTC）的模型很有吸引力，因为它们在自动语音识别（ASR）中的快速推断。语言模型（LM）集成方法（例如浅融合和重新恢复）可以通过利用文本语料库的知识来提高基于CTC的ASR的识别准确性。但是，它们大大减慢了CTC的推论。在这项研究中，我们建议提炼基于CTC的ASR的BERT知识，从而扩展了我们先前针对基于注意的ASR的研究。基于CTC的ASR在训练过程中学习了BERT的知识，并且在测试过程中不使用BERT，从而维持CTC的快速推断。与基于注意力的模型不同，基于CTC的模型做出了框架级预测，因此它们需要与BERT的令牌级预测进行蒸馏。我们建议通过计算最合理的CTC路径来获得比对。对自发日语（CSJ）和TED-LIUM2语料库的实验评估表明，我们的方法改善了基于CTC的ASR的性能，而无需推理速度成本。

translated by 谷歌翻译

Multi-modal Transformer Path Prediction for Autonomous Vehicle

Chia Hong Tseng , Jie Zhang , Min-Te Sun , Kazuya Sakai , Wei-Shinn Ku

分类：机器人 | 计算机视觉

2022-08-15

关于车辆路径预测的推理是自动驾驶系统安全运行的必不可少的问题。有许多用于路径预测的研究工作。但是，其中大多数不使用车道信息，也不基于变压器体系结构。通过利用从配备自动驾驶车辆的传感器收集的不同类型的数据，我们提出了一个名为多模式变压器路径预测（MTPP）的路径预测系统，该系统旨在预测目标试剂的长期未来轨迹。为了实现更准确的路径预测，在我们的模型中采用了变压器体系结构。为了更好地利用车道信息，目标试剂不太可能采用与目标试剂相反的车道，因此被过滤掉。另外，将连续的车道块组合在一起，以确保车道输入足够长以进行路径预测。进行了广泛的评估，以显示使用Nuscene（现实世界中的轨迹预测数据集）的拟议系统的功效。

translated by 谷歌翻译

Training Process of Unsupervised Learning Architecture for Gravity Spy Dataset

Yusuke Sakai , Yousuke Itoh , Piljong Jung , Keiko Kokeyama , Chihiro Kozakai , Katsuko T. Nakahira , Shoichi Oshino , Yutaka Shikano , Hirotaka Takahashi , Takashi Uchiyama

分类： (统计)机器学习

2022-08-07

来自重力波检测器的数据中出现的瞬态噪声通常会引起问题，例如检测器的不稳定性以及重叠或模仿重力波信号。由于瞬态噪声被认为与环境和工具相关联，因此其分类将有助于理解其起源并改善探测器的性能。在先前的研究中，提出了用于使用时频2D图像（频谱图）进行瞬态噪声进行分类的体系结构，该架构使用了无监督的深度学习与变异自动编码器和不变信息集群的结合。提出的无监督学习结构应用于重力间谍数据集，该数据集由高级激光干涉仪重力波动台（Advanced Ligo）瞬态噪声与其相关元数据进行讨论，以讨论在线或离线数据分析的潜力。在这项研究的重点是重力间谍数据集中，研究并报告了先前研究的无监督学习结构的训练过程。

translated by 谷歌翻译

Computational Models for SA, RA, PC Afferent to Reproduce Neural Responses to Dynamic Stimulus Using FEM Analysis and a Leaky Integrate-and-Fire Model

Hiroki Ishizuka , Shoki Kitaguchi , Masashi Nakatani , Hidenori Yoshimura , Fusao Shimokawa

分类：机器人

2022-08-01

对外部刺激做出反应的触觉传入，例如（RA）和Pacinian（PC）传入，可以使复杂的动作（例如抓住，抚摸和识别对象）。要深入了解这些动作引起的触觉感觉，需要揭示触觉传入的活动。为此，我们为振动刺激的每种触觉传入开发了一个计算模型，结合了有限元分析有限元方法（FEM）分析和代表神经特征的泄漏的集成和火力模型。该计算模型可以轻松估计触觉传入的神经活动，而无需测量生物学数据。使用FEM分析计算的皮肤变形被取代为集成与火力模型，作为计算每种触觉传入的膜电位的电流输入。我们使用报道的生物学数据在集成和火力模型中优化了参数。然后，我们计算了数值模型对正弦，二氢和白噪声机械刺激的响应，以验证提出的数值模型。从结果来看，计算模型很好地再现了对振动刺激的神经反应，例如正弦，二氢和噪声刺激，并与可以模拟对振动刺激的响应的相似计算模型进行了优越的比较。

translated by 谷歌翻译

High-Dimensional Bayesian Optimization with Constraints: Application to Powder Weighing

Shoki Miyagawa , Atsuyoshi Yano , Naoko Sawada , Isamu Ogawa

分类：机器学习

2022-06-13

贝叶斯优化有效地优化了黑盒问题中的参数。但是，在有限的试验中，该方法对于高维参数不起作用。可以通过非线性将其嵌入低维空间来有效地探索参数。但是，不能考虑约束。我们提出了将参数分解组合到非线性嵌入中，以考虑在高维贝叶斯优化中考虑已知的平等和未知不平等约束。我们将提出的方法应用于粉末称重任务，作为使用情况。根据实验结果，与手动参数调整相比，提出的方法考虑了约束，并将试验数量减少约66％。

translated by 谷歌翻译

Speak Like a Dog: Human to Non-human creature Voice Conversion

Kohei Suzuki , Shoki Sakamoto , Tadahiro Taniguchi , Hirokazu Kameoka

分类：人工智能

2022-06-09

本文提出了一个新的语音转换（VC）任务，从人类语音到类似狗的语音，同时保留语言信息，作为人类到非人类生物语音转换（H2NH-VC）任务的一个例子。尽管大多数VC研究都涉及人类VC，但H2NH-VC旨在将人类的言论转变为非人类生物式的言语。非平行VC允许我们开发H2NH-VC，因为我们无法收集非人类生物说人类语言的并行数据集。在这项研究中，我们建议将狗用作非人类生物目标域的一个例子，并定义“像狗一样说话”任务。为了阐明“像狗一样说话”任务的可能性和特征，我们使用现有的代表性非平行VC方法进行了比较实验，以声学特征（Mel-Cepstral系数和MEL-SPECTROGINS），网络体系结构（五个不同的kernel- kernel--尺寸设置）和训练标准（基于差异自动编码器（VAE）基于对抗性网络）。最后，使用平均意见分数评估了转换后的声音：狗的声音，声音质量和可理解性以及字符错误率（CER）。该实验表明，梅尔光谱图的使用改善了转换后的语音的类似狗，而保留语言信息则具有挑战性。强调了H2NH-VC当前VC方法的挑战和局限性。

translated by 谷歌翻译

OptWedge: Cognitive Optimized Guidance toward Off-screen POIs

Shoki Miyagawa

分类：机器学习

2022-06-09

指导屏幕外兴趣点（POI）是一种为小屏幕设备的用户提供其他信息的实用方法，例如智能设备和头部安装的显示器。流行的先前方法涉及在屏幕上显示一个称为楔形的原始图，以供用户估算隐形顶点上的屏幕外POI。因为他们利用称为Amodal完成的认知过程，即使一部分被阻塞，用户也可以想象整个数字，因此本地化准确性也会受到偏见和个体差异的影响。为了提高准确性，我们建议使用考虑影响影响的认知成本来优化该数字。我们还设计了具有不同参数的两种优化类型：无偏的Optwedge（UOW）和偏置Optwedge（Bow）。实验结果表明，与启发式方法相比，OPTWEDGE对近距离的指导更加准确。

translated by 谷歌翻译